搜索资源列表
RUSE2-061251140
- 一个简单的搜索引擎,采用倒排表,对文件进行索引,很据内容进行匹配-A simple search engine, the use of inverted tables, index files, it is according to match the content
051_276_project3
- 根据分词程序结果用倒排文件对词频进行统计,并输出索引-Segmentation results of the proceedings in accordance with the inverted file used to compile the statistics on the frequency and the output index
CHAP12
- ISAM文件,VSAM文件,顺序文件,索引文件,多重表文件,倒排文件-ISAM files, VSAM files, sequential files, index files, multi-sheet files, inverted file
caltech-image-search-1.0
- 大规模图像检索的代码,matlab与c++混合编程。总结了目前图像检索领域目前主要存在的方法。通过阅读该代码,可以对于经典的“词袋”模型(bow模型)有个具体的了解,但是该代码没有提供前序的特征提取,是直接从对提取好的特征向量聚类开始的,包括了k-means,分层k-means(HKM)聚类,倒排文件的建立和索引等,该代码还提供了局部敏感哈希(LSH)方法。最后,这份代码是下面这篇论文的作者提供的, Indexing in Large Scale Image Collections: Sc
DB_ii_Final
- 基于二进制文件的B+数索引和倒排文件,其中B+树的删除利用插入实现-Achieve based on the number of binaries B index and the inverted file, including the deletion of the B-tree by inserting
IR
- 索引词的选择 1、 切词及词频统计:利用已选择的分词软件对文档进行切词处理,并进行词频统计,形成DocIndex文件,结构为:文档号、频率、词。注意保留中间结果,建立合理的数据结构来存储。 2、 分配词权重: 采用词频标准化(tfi = tfi/Max(tf))和tf*idf两种方式分配词的权重。由DocIndex文件生成DocIndex(tf) 和DocIndex(tf*idf)文件。注意阈值的确定,词的取舍。 3、 形成倒置文档:将DocIndex(tf) 和DocInde
CHAP12
- ISAM文件,VSAM文件,顺序文件,索引文件,多重表文件,倒排文件ISAM files, VSAM files, sequential files, index files, multi-sheet files, inverted file-ISAM files, VSAM files, sequential files, index files, multi-sheet files, inverted file
invertedIndex
- 利用hadoop中的map/reduce框架实现对文件的倒排索引,在搜索引擎中对网页的分类很多采用这种方法-Using map/reduce in the Hadoop framework to achieve the inverted file index, in the search engine on the web page of a lot of classification using this method